36 research outputs found

    Apprentissage par Renforcement Inverse pour la Simulation d'Utilisateurs dans les Systèmes de Dialogue

    No full text
    National audienceLes systèmes de dialogue sont des interfaces homme-machine qui utilisent le language naturel comme medium d'interaction. La simulation d'utilisateurs a pour objectif de simuler le comportement d'un utilisateur humain afin de générer artificiellement des dialogues. Cette étape est souvent essentielle dans la mesure où collecter et annoter des corpus de dialogues est un processus coûteux, bien que nécessaire à l'utilisation de méthodes d'apprentissage artificiel (tel l'apprentissage par renforcement qui peut être utilisé pour apprendre la politique du gestionnaire de dialogues). Les simulateurs d'utilisateurs existants cherchent essentiellement à produire des comportements d'utilisateurs qui soient statistiquement consistants avec le corpus de dialogues. La contribution de cet article est d'utiliser l'apprentissage par renforcement inverse pour bâtir un nouveau simulateur d'utilisateur. Cette nouvelle approche est illustrée par la simulation du comportement d'un modèle d'utilisateur (artificiel) sur un problème à trois attributs pour un système d'information touristiques. Le comportement du nouveau simulateur d'utilisateur est évalué selon plusieurs métriques (de l'interaction au dialogue)

    Sample Efficient On-line Learning of Optimal Dialogue Policies with Kalman Temporal Differences

    No full text
    International audienceDesigning dialog policies for voice-enabled interfaces is a tailoring job that is most often left to natural language processing experts. This job is generally redone for every new dialog task because cross-domain transfer is not possible. For this reason, machine learning methods for dialog policy optimization have been investigated during the last 15 years. Especially, reinforcement learning (RL) is now part of the state of the art in this domain. Standard RL methods require to test more or less random changes in the policy on users to assess them as improvements or degradations. This is called on policy learning. Nevertheless, it can result in system behaviors that are not acceptable by users. Learning algorithms should ideally infer an optimal strategy by observing interactions generated by a non-optimal but acceptable strategy, that is learning off-policy. In this contribution, a sample-efficient, online and off-policy reinforcement learning algorithm is proposed to learn an optimal policy from few hundreds of dialogues generated with a very simple handcrafted policy

    User Simulation in Dialogue Systems using Inverse Reinforcement Learning

    No full text
    International audienceSpoken Dialogue Systems (SDS) are man-machine interfaces which use natural language as the medium of interaction. Dialogue corpora collection for the purpose of training and evaluating dialogue systems is an expensive process. User simulators aim at simulating human users in order to generate synthetic data. Existing methods for user simulation mainly focus on generating data with the same statistical consistency as in some reference dialogue corpus. This paper outlines a novel approach for user simulation based on Inverse Reinforcement Learning (IRL). The task of building the user simulator is perceived as a task of imitation learning

    Regroupement non-supervisé d'utilisateurs par leur comportement pour les systèmes de dialogue parlé

    No full text
    National audienceSpoken Dialogue Systems (SDS) are natural language interfaces for human-computer interaction. User adaptive dialogue management strategies are essential to sustain the naturalness of interaction. In recent years data-driven methods for dialogue optimization have evolved to be a state of art approach. However these methods need vast amounts of corpora for dialogue optimization. In order to cope with the data requirement of these methods, but also to evaluate the dialogue strategies, user simulations are built. Dialogue corpora used to build user simulation are often not annotated in user's perspective and thus can only simulate some generic user behavior, perhaps not representative of any user. This paper aims at clustering dialogue corpora into various groups based on user behaviors observed in the form of full dialogues.Les systèmes de dialogue parlé sont des interfaces naturelles pour l'interaction homme-machine. La conception de stratégies d'interaction s'adaptant à l'interlocuteur est essentielle pour assurer le caractère naturel de l'interface. Depuis quelques années, des méthodes d'apprentissage automatique pour l'optimisation de ces stratégies, particulièrement l'apprentissage par renforcement, sont utilisées de plus en plus largement et font maintenant partie de l'état de l'art dans le domaine. Néanmoins, de grandes quantités de données sont souvent nécessaires pour entraîner ces algorithmes menant à une optimisation de l'interaction. Pour palier le déficit de données souvent rencontré en pratique, mais aussi pour évaluer la qualité des systèmes développés, des systèmes de simulation d'utilisateurs sont souvent utilisés. On utilise alors des jeux de données de dialogue annotés plus petits permettant d'apprendre des comportements simulés. Néanmoins l'annotation n'est généralement pas réalisée du point de vue utilisateur mais plutôt du point de vue machine, ainsi le but poursuivi par l'utilisateur est souvent inconnu. Par ailleurs, toute la base de données est la plupart du temps utilisée pour entraîner un simulateur qui produit ainsi des comportements moyens pouvant éventuellement ne correspondre à aucun comportement particulier rencontré dans la base. Cet article propose une méthode de regroupement non-supervisé des données (clustering) en fonction du comportement des utilisateurs. Cette segmentation des comportements se base sur l'interprétation des utilisateurs comme étant des processus décisionnels de Markov, de dynamique et/ou récompenses différentes. De cette manière plusieurs groupes d'utilisateurs sont distingués en fonction de dialogues complets et pas de comportements locaux dans des contextes particuliers

    Uncertainty management for on-line optimisation of a POMDP-based large-scale spoken dialogue system

    No full text
    International audienceThe optimization of dialogue policies using reinforcement learning (RL) is now an accepted part of the state of the art in spoken dialogue systems (SDS). Yet, it is still the case that the commonly used training algorithms for SDS require a large number of dialogues and hence most systems still rely on artificial data generated by a user simulator. Optimization is therefore performed off-line before releasing the system to real users. Gaussian Processes (GP) for RL have recently been applied to dialogue systems. One advantage of GP is that they compute an explicit measure of uncertainty in the value function estimates computed during learning. In this paper, a class of novel learning strategies is described which use uncertainty to control exploration on-line. Comparisons between several exploration schemes show that significant improvements to learning speed can be obtained and that rapid and safe online optimisation is possible, even on a complex task

    An Evaluation on Wind Energy Potential using Multi-Objective Optimization-based Non-dominated Sorting Genetic Algorithm III

    Get PDF
    Wind energy is an abundant renewable energy resource that is extensively used worldwide in recent years. The present work proposes a new Multi-Objective Optimization (MOO) based genetic algorithm (GA) model for a wind energy system. The proposed algorithm consists of non-dominated sorting which focuses to maximize the power extraction of the wind turbine and the lifetime of the battery. Also, the performance characteristics of the wind turbine and battery energy storage system (BESS) are analyzed specifically torque, current, voltage, state of charge (SOC), and internal resistance. The complete analysis is carried out in the MATLAB/Simulink platform. The simulated results are compared with existing optimization techniques such as single-objective, multi-objective, and non-dominating sorting GA II (Genetic Algorithm-II). From the observed results, the NSGA III optimization algorithm offers superior performance notably higher turbine power output with higher torque rate, lower speed variation, and lesser degradation rate of the battery. This result attested to the fact that the proposed optimization tool can extract a higher rate of power from a self-excited induction generator (SEIG) when compared with a conventional optimization tool.publishedVersio

    Revisiter la simulation d'utilisateurs dans les systèmes de dialogue parlé : est-elle encore nécessaire ? : est-ce que l'imitation peut jouer le rôle de la simulation ?

    No full text
    Recent advancements in the area of spoken language processing and the wide acceptance of portable devices, have attracted signicant interest in spoken dialogue systems.These conversational systems are man-machine interfaces which use natural language (speech) as the medium of interaction.In order to conduct dialogues, computers must have the ability to decide when and what information has to be exchanged with the users. The dialogue management module is responsible to make these decisions so that the intended task (such as ticket booking or appointment scheduling) can be achieved.Thus learning a good strategy for dialogue management is a critical task.In recent years reinforcement learning-based dialogue management optimization has evolved to be the state-of-the-art. A majority of the algorithms used for this purpose needs vast amounts of training data.However, data generation in the dialogue domain is an expensive and time consuming process. In order to cope with this and also to evaluatethe learnt dialogue strategies, user modelling in dialogue systems was introduced. These models simulate real users in order to generate synthetic data.Being computational models, they introduce some degree of modelling errors. In spite of this, system designers are forced to employ user models due to the data requirement of conventional reinforcement learning algorithms can learn optimal dialogue strategies from limited amount of training data when compared to the conventional algorithms. As a consequence of this, user models are no longer required for the purpose of optimization, yet they continue to provide a fast and easy means for quantifying the quality of dialogue strategies. Since existing methods for user modelling are relatively less realistic compared to real user behaviors, the focus is shifted towards user modelling by means of inverse reinforcement learning. Using experimental results, the proposed method's ability to learn a computational models with real user like qualities is showcased as part of this work.Les récents progrès dans le domaine du traitement du langage ont apporté un intérêt significatif à la mise en oeuvre de systèmes de dialogue parlé. Ces derniers sont des interfaces utilisant le langage naturel comme medium d'interaction entre le système et l'utilisateur. Le module de gestion de dialogue choisit le moment auquel l'information qu'il choisit doit être échangée avec l'utilisateur. Ces dernières années, l'optimisation de dialogue parlé en utilisant l'apprentissage par renforcement est devenue la référence. Cependant, une grande partie des algorithmes utilisés nécessite une importante quantité de données pour être efficace. Pour gérer ce problème, des simulations d'utilisateurs ont été introduites. Cependant, ces modèles introduisent des erreurs. Par un choix judicieux d'algorithmes, la quantité de données d'entraînement peut être réduite et ainsi la modélisation de l'utilisateur évitée. Ces travaux concernent une partie des contributions présentées. L'autre partie des travaux consiste à proposer une modélisation à partir de données réelles des utilisateurs au moyen de l'apprentissage par renforcement invers

    Revisiter la simulation d'utilisateurs dans les systèmes de dialogue parlé : est-elle encore nécessaire ? : est-ce que l'imitation peut jouer le rôle de la simulation ?

    No full text
    Les récents progrès dans le domaine du traitement du langage ont apporté un intérêt significatif à la mise en oeuvre de systèmes de dialogue parlé. Ces derniers sont des interfaces utilisant le langage naturel comme medium d'interaction entre le système et l'utilisateur. Le module de gestion de dialogue choisit le moment auquel l'information qu'il choisit doit être échangée avec l'utilisateur. Ces dernières années, l'optimisation de dialogue parlé en utilisant l'apprentissage par renforcement est devenue la référence. Cependant, une grande partie des algorithmes utilisés nécessite une importante quantité de données pour être efficace. Pour gérer ce problème, des simulations d'utilisateurs ont été introduites. Cependant, ces modèles introduisent des erreurs. Par un choix judicieux d'algorithmes, la quantité de données d'entraînement peut être réduite et ainsi la modélisation de l'utilisateur évitée. Ces travaux concernent une partie des contributions présentées. L'autre partie des travaux consiste à proposer une modélisation à partir de données réelles des utilisateurs au moyen de l'apprentissage par renforcement inverseRecent advancements in the area of spoken language processing and the wide acceptance of portable devices, have attracted signicant interest in spoken dialogue systems.These conversational systems are man-machine interfaces which use natural language (speech) as the medium of interaction.In order to conduct dialogues, computers must have the ability to decide when and what information has to be exchanged with the users. The dialogue management module is responsible to make these decisions so that the intended task (such as ticket booking or appointment scheduling) can be achieved.Thus learning a good strategy for dialogue management is a critical task.In recent years reinforcement learning-based dialogue management optimization has evolved to be the state-of-the-art. A majority of the algorithms used for this purpose needs vast amounts of training data.However, data generation in the dialogue domain is an expensive and time consuming process. In order to cope with this and also to evaluatethe learnt dialogue strategies, user modelling in dialogue systems was introduced. These models simulate real users in order to generate synthetic data.Being computational models, they introduce some degree of modelling errors. In spite of this, system designers are forced to employ user models due to the data requirement of conventional reinforcement learning algorithms can learn optimal dialogue strategies from limited amount of training data when compared to the conventional algorithms. As a consequence of this, user models are no longer required for the purpose of optimization, yet they continue to provide a fast and easy means for quantifying the quality of dialogue strategies. Since existing methods for user modelling are relatively less realistic compared to real user behaviors, the focus is shifted towards user modelling by means of inverse reinforcement learning. Using experimental results, the proposed method's ability to learn a computational models with real user like qualities is showcased as part of this work

    Gestion de l'incertitude pour l'optimisation en ligne d'un gestionnaire de dialogues parlés à grande échelle basé sur les POMDP

    No full text
    National audienceL'utilisation de l'apprentissage par renforcement (AR) fait maintenant partie de l'état de l'art dans le domaine de l'optimisation de gestionnaires de dialogues parlés. Cependant avec cette méthode, entraîner un gestionnaire de dialogues requiert la génération de nombreuses données. C'est pourquoi beaucoup d'attention a été portée à la simulation d'utilisateurs ces dix dernières années. L'optimisation est donc faite avant de confronter le système à des utilisateurs réels et l'apprentissage est soit stoppé ou soit très lent durant l'utilisation pratique. Pendant ce temps-là, la recherche en AR a développé des algorithmes efficaces en termes d'échantillons. Par exemple les processus gaussiens pour l'AR ont récemment été appliqués aux gestionnaires de dialogues. Pour augmenter la vitesse d'apprentissage, l'incertitude sur les estimations calculées durant l'apprentissage est utilisée pour diriger l'exploration. Une comparaison entre différents schémas d'exploration montre que des améliorations significatives peuvent être apportées et qu'une optimisation en ligne rapide et sûre est possible, même sur une tâche complexe
    corecore